增強學習(五)----- 時間差分學習(Q learning, Sarsa learning)
接下來我們回顧一下動態規划算法(DP)和蒙特卡羅方法(MC)的特點,對於動態規划算法有如下特性: 需要環境模型,即狀態轉移概率\(P_{sa}\) 狀態值函數的估計是自舉的(bootstr ...
接下來我們回顧一下動態規划算法(DP)和蒙特卡羅方法(MC)的特點,對於動態規划算法有如下特性: 需要環境模型,即狀態轉移概率\(P_{sa}\) 狀態值函數的估計是自舉的(bootstr ...